ifi 19] 4 Mb x 91 t P 
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细 分 框架 


摘要 : 【 目的】 为 有 效 解决 微 博客 户 特性 的 表示 问题 ， 


以 更 好 地 实施 企业 微 博客 户 细 分 。[ 方法 ] 借助 微 博 平 


台 上 客户 的 个 人 和 社会 关系 特性 , 利用 客户 及 其 好 友 的 自 定义 标签 表示 客户 的 特性 ,采用 基于 非 负 和 矩阵 分 解 的 


" 
RK 


文本 
约 86.130% 的 asw 指标 平均 值 ， 远 远 超出 基于 K-means 


方法 , 提出 一 种 面向 企业 微 博 的 客户 细 分 框架 


o [AR ] 实验 结 果 
和 层次 聚 类 的 方法 。[ 局 限 ] 只 通 


表明 ,基于 非 负 和 矩阵 分 解 的 方法 取得 
过 融合 微 博客 户 个 人 及 


其 关注 好 友 的 标签 表示 微 博客 户 特 性 的 方法 不 能 够 全 面 刻 画 客户 特征 。[ 结论 ] 能 够 为 企业 微 博客 户 细 分 中 的 客 


PR 
关键 词 : 客户 细 分 ” 微 博 营销 
分 类 号 : TP391 G35 


的 表示 、 细 分 、 评 价 及 结果 可 视 化 等 问题 提供 参考 和 借鉴 。 
文本 聚 类 ” 非 负 矩阵 分 解 
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微 博 (Microblog) 等 社会 化 媒体 的 快速 发 展 深 刻 改 
变 了 企业 与 客户 、 客 户 与 客户 之 间 的 沟通 和 互动 方式 。 
微 博 具 有 信息 传播 快 、 互 动 性 强 、 实 时 分 享 等 特点 , 充 
分 利用 这 些 特 点 进行 社会 化 营销 能 够 帮助 企业 改善 品 
牌 形象 ， 提 高 知名 度 ， 从 而 扩大 市 场 份额 ,这 使 得 微 
博 营销 成 为 企业 社会 化 营销 的 重要 手段 ， 而 客户 细 分 
是 微 博 营销 的 重要 基础 。 

自 美 国学 者 温 德 尔 :史密斯 于 20 世纪 50 年代 中 期 
提出 客户 细 分 的 概念 以 来 ,客户 细 分 研究 引起 了 政府 
机 构 、 工 业界 和 学 术 界 的 广泛 关注 。 目 前 , 客户 细 分 
研究 在 企业 客户 关系 管理 中 发 挥 着 重要 作用 。 然 而 ， 
传统 的 企业 客户 细 分 方法 存在 局 限 性 , 新 兴 的 营销 方 
式 和 电子 化 平台 使 得 传统 的 客户 细 分 方法 面临 挑战 。 
在 社会 化 营销 领域 , 传统 方法 难以 有 效 表示 客户 的 特 
性 ， 面 对 海量 社会 化 媒体 数据 ， 分 析 效 果 差 强人 意 。 


了 中 


通讯 作者 : ATi, ORCID: 0000-0001-9164-9494, E-mail: z 


在 已 有 研究 的 基础 上 , 本 文 以 企业 微 博 为 研究 对 
象 ， 以 文本 聚 类 技术 为 手段 ， 研 究 面 向 企业 微 博 的 客 
户 细 分 框架 , 探索 客户 细 分 在 社会 化 营销 中 的 应 用 。 
微 博 用 户 的 社会 关系 及 其 兴趣 爱好 等 标签 对 客户 特性 
的 表示 具有 重要 意义 。 前 期 研究 中 , 许多 学 者 针对 微 
博 平台 客户 的 社会 关系 特性 , 融合 客户 及 其 微 博 好 友 
的 自 定义 标签 从 客户 个 人 和 社会 特性 两 方面 生成 客 
户 特性 描述 文本 ,并 利用 文本 分 类 技术 识别 出 微 博 平 
台 的 潜在 客户 ; 实验 结果 表明 潜在 客户 识别 准确 率 可 
以 达到 86% 左 右 口 。 在 此 基础 上 , 本 文 利用 文本 聚 类 技 
Ñ, 并 结合 内 部 评价 方式 和 标签 云 可 视 化 方法 ， 提 出 
一 种 面向 企业 微 博 的 客户 细 分 框架 ; 通过 对 不 同行 业 
的 企业 官方 微 博 的 粉丝 数据 进行 分 析 ， 对 比 不 同文 本 
聚 类 方法 的 效果 ,结果 表明 K-means 和 层次 聚 类 等 传 
统 算法 倾向 于 粗略 划分 企业 微 博客 户 以 致 聚 类 效果 不 
佳 , 而 本 文 框架 所 采用 的 基于 非 负 和 矩阵 分 解 的 文本 聚 
类 能 有 效 处 理 高 维 文本 数据 和 语义 聚 类 , 该 框架 有 利 
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于 发 现 更 有 意义 的 客户 群 。 
2 相关 研究 


2.1 客户 细 分 相关 研究 

社会 化 媒体 的 快速 发 展 为 企业 与 客户 提供 了 全 新 
的 互动 交流 平台 ,基于 社会 化 媒体 的 客户 关系 构建 和 
营销 策略 成 为 企业 长 远 发 展 的 制胜 点 外。 客户 细 分 成 
为 社会 化 媒体 营销 最 重要 、 也 是 企业 管理 者 最 为 关注 
的 方面 之 一 趾 。 面 向 微 博 的 客户 细 分 可 以 帮助 企业 快 
速 分 析 客 户 群 特性 , 开拓 营销 渠道 ,从 而 降低 企业 的 
营销 成 本 、 增 加 利润 。 

传统 的 企业 客户 细 分 方法 主要 有 聚 类 和 分 类 两 
种 人。 由 于 分 类 方法 需要 大 量 有 标注 的 训练 数据 ,要 
求 企业 对 已 有 的 客户 资料 及 客户 群 特征 有 较 好 的 认 
WR, 因此 在 实际 应 用 中 分 类 并 不 是 主流 的 客户 细 分 方 
法 。 聚 类 分 析 不 需要 标注 的 训练 数据 ， 只 需 对 数据 进 
行 相似 度 计算 以 自动 划分 , 是 目前 使 用 较 多 的 细 分 方 
法 , 能 有 效 发 现 企业 客户 群 特征 。Rajagopal 使 用 聚 类 技 
术 识 别 零 售 业 中 的 高 收益 、 高 价值 和 低 风险 的 客户 外; 
Lefait 等 根据 客户 购买 行为 信息 ,提出 一 种 基于 聚 类 
的 客户 细 分 框架 以 帮助 企业 细 分 客户 群 申 ， Wu 等 提出 
不 同 的 客户 矩阵 模型 ， 融 合 聚 类 技术 ， 发 现 客户 的 不 
同 特性 。 然 而 这 些 研 究 大 多 是 传统 行业 里 的 客户 细 
分 应 用 , 在 分 析 方 法 和 分 析 对 象 等 方面 存在 一 定 的 局 
限 性 , 难以 延伸 应 用 到 社会 化 营销 领域 。 从 方法 的 角 
度 看 ， 聚 类 或 分 类 都 需要 在 特定 的 条 件 下 进行 。 基 于 
划分 的 聚 类 方法 大 多 需要 指定 划分 的 数目 ， 而 分 类 需 
要 大 规模 的 标注 训练 数据 ， 也 涉及 参数 设置 的 问题 。 
传统 方法 主要 分 析 客户 的 人 口 统计 信息 、 消 费 特征 等 
数值 属性 。 但 这 些 属 性 往往 不 能 有 效 地 表示 客户 特性 ， 
难以 从 兴趣 爱好 等 方面 刻画 客户 特性 ， 导 致 细 分 的 效 
果 较 差 ; 同时 ， 由 于 难以 确保 从 社会 化 媒体 平台 获取 的 
统计 特征 的 真实 性 , 直接 运用 传统 方法 效果 并 不 好 。 
国内 外 针对 社会 化 媒体 平台 上 的 企业 客户 细 分 研 
究 成 果 尚 不 多 见 。 国 外 学 者 探索 了 Twitter 上 的 用 户 分 
类 研究 , 包括 政治 立场 分 类 、 地 域 划 分 、 性 别 预 测 和 
角色 分 类 等 但 并 没 提 及 客户 细 分 。 国内 微 博 发 展 
起 步 较 晚 ， 更 缺乏 相关 的 研究 。 据 笔者 调查 ， 目 前 国内 
外 并 没有 直接 的 面向 企业 微 博 的 客户 细 分 研究 。 
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2.2 ”文本 聚 类 算法 和 非 负 和 矩 阵 分 解 简 述 

文本 聚 类 是 依据 “同类 文档 相似 度 较 大 , 不 同类 
文档 相似 度 较 小 ”的 假设 , 通过 计算 不 同文 档 间 的 相 
似 度 将 不 同文 档 归 到 不 同类 别 的 过 程 。 已 有 方法 通过 
向 量 空间 模型 VSM 和 词 频 - 逆 文档 频率 TF-IDF 权重 
计算 ,解决 文本 向 量化 表示 的 问题 ; 进而 , 采用 基于 
划分 或 层次 等 聚 类 算法 ,计算 文 本 间 的 相似 度 实现 聚 
类 。 和 常见 的 聚 类 算法 有 基于 划分 的 、 层 次 的 、 密 度 和 
网 格 的 聚 类 算法 等 ， 比 较 经 典 目 广泛 运用 的 是 K-means 
和 层次 聚 类 方法 "1。 尽 管 文本 取 类 可 以 通过 传统 的 
聚 类 算法 来 实现 , 但 这 个 过 程 仍 存在 问题 : 文本 特征 
通常 呈现 高 维和 稀 玖 性 , 影响 了 文本 聚 类 的 效果 ; fe 
统 的 聚 类 方法 较 少 考虑 文本 语义 ,， 聚 类 结果 难以 直观 
呈现 最 终 的 聚 类 效果 。 

非 负 托 阵 分 解法 (Non-negative Matrix Factorization, 
NMF) 因 Lee 等 于 1999 年 发 表 在 Nature 的 一 系列 研究 
成 果 而 引起 了 学 术 界 的 关注 0。 非 负 和 矩阵 分 解 可 简 述 
为 : 对 于 任意 的 非 负 抢 阵 A, FRIERE W 和 非 负 
矩阵 孔 ， 使 得 满足 A=W*H， 从 而 将 非 负 移 阵 A 分 解 为 
EAMA W., HRI, KEER A 中 的 某 
一 列 癌 量 可 以 解释 为 对 左 算 了 泗 W 中 所 有 列 向 量 ( 称 为 
基 疝 量 ) 的 加 权 和 ， 而 权重 系数 为 右 敌阵 再 中 对 应 列 向 
量 中 的 元 素 。 这 种 表示 具有 直观 的 语义 解释 , 反映 了 
人 类 “局 部 构成 整体 ”的 思维 。 NMEF 通过 寻找 降 维 表 示 
和 非 负 元 素 的 矩阵 分 解 形式 的 特点 使 其 在 实际 的 领域 
中 得 到 了 广泛 的 应 用 ， 比 如 文本 挖掘 、 网 像 处 理 和 生物 
信息 处 理 等 。 借 鉴 NMF 在 文本 分 析 的 成 功 应 用 上 2 
本 文 将 NMF 引入 到 对 企业 微 博客 户 标签 文本 的 处 理 
中 ,发 挥 其 处 理 高 维 数据 的 优势 , 并 通过 捕获 文本 语 
义 信息 实现 文本 聚 类 。 


3 ”面向 企业 微 博 的 客户 细 分 


微 博 上 蕴含 了 丰富 的 社会 关系 信息 。 微 博 用 户 间 
的 关注 关系 说 明 用 户 之 间 存 在 真实 的 社会 关系 、 或 存 
在 相似 的 兴趣 爱好 等 特性 、 或 对 所 关注 用 户 分 享 的 信 
息 感 兴趣 。 通 常 当 用 户 关注 某 个 企业 微 博 时 , 说 明 该 
用 户 可 能 已 经 是 该 企业 的 客户 , 想 继续 了 解 企业 的 产 
品 或 服务 ; 也 可 能 是 该 企业 的 潜在 客户 ,对 企业 的 产 
品 或 服务 感 兴 趣 , 但 还 没 产生 购买 行为 ; 还 有 小 部 分 
可 能 不 是 现 有 客户 或 潜在 客户 ， 而 是 企业 的 员工 或 莞 


争 对 手 , 他 们 也 可 能 是 企业 的 客户 ， 由 于 他 们 是 业内 
At, 其 个 人 和 社会 特性 在 一 定 程度 上 反映 了 企业 的 
特征 和 客户 的 共性 。 因 此 , 本 文 假定 企业 微 博 账号 的 
粉丝 为 该 企业 的 现 有 客户 或 潜在 客户 ， 有 着 相似 的 产 
品 或 服务 需求 ， 可 以 从 不 同 侧面 来 描述 他 们 的 生活 、 
职业 和 兴趣 爱好 等 特征 ， 这 也 使 得 聚 类 技术 能 够 较 好 
地 发 现 这 种 潜在 的 模式 。 换 言 之 , 面向 企业 微 博 的 客 
户 细 分 问题 可 以 看 作对 企业 官方 微 博 的 粉丝 进行 细 分 
的 过 程 ,可 形式 化 为 无 监督 的 聚 类 问题 。 
3.1 面向 企业 微 博 的 客户 细 分 框架 

本 文 结合 企业 官方 微 博 的 粉丝 及 其 微 博 好 友 自 
定义 的 标签 文本 信息 , 将 文本 聚 类 技术 应 用 到 微 博 平 
台 的 客户 细 分 研究 中 , 提出 一 种 面向 企业 微 博 的 客户 
细 分 框架 ， 如 图 1 所 示 : 


Oo 
微 博 平台 数据 源 | 一 >| 文本 项 处 理 


输入 
文档 -词语 矩阵 


基于 用 户 标签 
构造 用 户 特性 
描述 文本 


聚 类 细 分 
不 同 聚 类 方法 


聚 类 结果 


有 意义 的 篇 


可 视 化 
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图 1 面向 企业 微 博 的 客户 细 分 框架 


针对 特定 领域 的 企业 采集 其 官方 微 博 的 粉丝 及 其 
微 博 好 友 的 标签 数据 , 利用 文献 [提出 的 客户 特性 表 
示 方 法 构造 客户 特性 描述 文本 ; 通过 向 量 空间 模型 
VSM 和 TF-IDF 公式 计算 词语 权重 , 将 客户 特性 描述 
文本 转换 成 文档 -词语 矩阵 ; 利用 不 同文 本 聚 类 算法 
进行 细 分 获得 不 同 的 复 ; 评价 聚 类 结果 , 识别 有 意义 
Hyg, 并 通过 标签 云 可 视 化 呈现 结果 ; 结合 领域 知识 
和 专家 分 析 ,， 找 出 有 助 于 微 博 营销 的 细 分 策略 。 
3.0 ”客户 特性 表示 

微 博 用 户 可 以 自由 定义 标签 以 描述 自我 兴趣 爱 
df, 这些 标签 体现 了 用 户 在 生活 、 职 业 等 层面 的 特点 ， 
因而 它们 在 一 定 程度 上 反映 了 用 户 的 个 人 特性 ; 同时 ， 
由 于 标签 是 用 户 自 定义 的 , 对 用 户 个 人 的 兴趣 爱好 等 
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特性 的 描述 更 精炼 、 更 准确 。 

用 户 的 兴趣 爱好 受 朋友 同学 等 较为 亲密 的 人 影 
响 ; 相反 ,朋友 同学 的 兴趣 爱好 也 在 一 定 程度 上 反映 
该 用 户 的 兴趣 爱好 。 类 比 到 微 博 平台 上 , 用 户 的 社会 
关系 在 一 定 程度 上 体现 在 用 户 间 的 关注 关系 上 ， 即 用 
户 会 和 其 朋友 同学 形成 互相 关注 的 双向 关系 ; 用 户 也 
会 主动 关注 感 兴趣 的 媒体 、 领 域名 人 和 公共 服务 微 博 
等 ,形成 单 向 的 关注 关系 。 因 此 , 融合 用 户 及 其 微 博 好 
友 的 标签 信息 能 从 个 人 和 社会 关系 两 方面 描述 客户 的 
特性 ,因此 提出 根据 企业 微 博 的 粉丝 (客户 ) 及 其 关注 
的 微 博 好 友 的 标签 生成 客户 特性 描述 文本 的 方法 口 。 
具体 地 ， 每 个 客户 特性 描述 文本 是 由 微 博 用 户 的 标签 
及 其 关注 好 友 的 标签 出 现 的 总 频数 生成 ,其 计算 方法 
如 下 所 示 : 


n 
userprofile; — >》 friend j tusen (1) 
j=l 


Hp, usen 表示 用 户 i 的 标签 向 量 ，friend; 表示 
用 户 i 的 好 友 j 的 标签 向 量 (用 户 i 总 共有 n 个 好 友 )， 
userprofile; 则 表示 所 得 到 的 用 户 i 的 客户 特性 描述 文 
本 ; 用 户 的 标签 向 量 指 的 是 以 标签 为 维度 、 标 签 出 现 
频数 为 维度 值 组 成 的 向 量 。 进 而 , 每 个 客户 特性 描述 
文本 可 看 做 一 个 文档 向 量 , 并 根据 TF-IDF 方法 进行 
词语 权重 计算 。 

由 于 客户 特性 描述 文本 表示 成 的 文本 向 量 是 高 维 稀 
玻 数据 ， 因 此 需要 对 高 维 文本 数据 进行 有 效 的 降 维 。 


4 实验 分 析 


4.1 实验 数据 

实验 数据 来 自 于 新 浪 微 博 平 台 ， 以 三 个 不 同 领域 
的 企业 官方 微 博 为 例 , 采集 了 企业 官方 微 博 的 粉丝 及 
其 微 博 好 友 的 标签 ， 基 本 信息 如 表 1 所 示 : 


表 1 企业 官方 微 博 账号 基本 信息 


行业 微 博 账号 名 称 ” ”粉丝 数 ”粉丝 好 友 数 ”编号 


旅游 完美 旅行 网 4 308 1 006 333 A 
医疗 健康 ”父母 会 育儿 网 4 022 894 985 B 
教育 出 国 ”澳洲 留学 辅导 中 心 ”5 000 686 545 C 


为 防止 机 器 注册 的 用 户 (“ 伪 尸 粉 ”) 造 成 噪声 影响 ， 
本 文 根 据 “ 僵 尸 粉 "的 特征 ,设置 条 件 对 其 进行 移 除 。 
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通常 , “僵尸 粉 ”会 通过 持续 关注 不 同 用 户 形 成 大 量 的 
单 回 关注 ， 同 时 “僵尸 粉 ”的 粉丝 数量 极 少 ; 且 正 常用 
户 倾向 于 使 用 个 性 化 域名 (如 http://weibo.com/ 
username)， 而 “僵尸 "一般 没 有 设置 其 域名 。 基 于 以 上 
分 析 ， 以 用 户 的 相互 关注 数 不 少 于 10 以 及 有 和 定义 个 性 
化 的 用 户 域名 为 条 件 对 “僵尸 粉 " 用 户 进行 剔除 ， 筛选 
出 质量 较 高 的 用 户 数据 。 处 理 后 的 数据 基本 信息 如 表 
2 所 示 : 

表 2 移 除 “僵尸 粉 ” 后 的 企业 基本 信息 


编号 粉丝 数 粉丝 好 友 数 
A 1 073 337 241 
B 1714 295 139 
C 2 691 328 240 


4.2 ”实验 分 析 过 程 

(1) 文本 预 处 理 

在 实施 文本 聚 类 之 前 ， 需 要 对 文本 数据 进行 分 
词 、 去 停 用 词 、 词 频 和 文档 频率 统计 、 文 本 向 量化 等 
预 处 理 。 在 本 文 实验 中 , 文本 预 处 理 主要 包括 三 方面 
的 内 容 : 

(基于 用 户 标签 构造 用 户 特 性 表示 文本 , 根据 3.2 38 1] 
述 的 方法 进行 构造 。 

加 考虑 到 传统 降 维 方法 的 适用 性 和 复杂 性 ， 本文 主要 
通过 两 方面 的 处 理 实 现 简单 的 降 维 : 针对 标签 存在 大 小 写 、 
繁 简体 等 特点 进行 转换 ,过 滤 停 用 词 ; 根据 文档 频率 标准 别 
除 在 文档 集合 中 出 现 频 率 高 于 90%、 低 于 10% 的 词语 。 

@@ 通 过 上 述 的 步骤 可 得 到 由 用 户 特 性 表示 文本 组 成 的 
文档 集合 , 并 依据 TF-IDF 权重 计算 公式 , 进而 将 用 户 特性 
表示 文本 进行 向 量化 表示 ,得 到 文档 -词语 矩阵 作为 文本 聚 
类 算法 的 输入 。 

(2) 文本 聚 类 过 程 

文本 聚 类 过 程 涉及 聚 类 算法 选择 、 评 价 指标 和 参 
数 设 置 等 内 容 。 

(DAE AE Zr kit 

AXA K-means 和 层次 聚 类 算法 及 基于 NMEF 的 聚 类 
算法 ,KK-means 预先 设置 聚 类 数目 KK, 将 数据 划分 为 KK 个 徐 。 
层次 聚 类 算法 则 通过 将 数据 组 织 为 若干 组 并 形成 相应 的 树 
结构 进行 聚 类 。 本 文采 用 KK-means 和 基于 内 平方 距离 法 Ward 
的 凝聚 聚 类 算法 ， 并 采用 适合 文本 数据 的 余弦 相似 度 。 

基于 NMF 的 聚 类 算法 主要 有 三 个 步骤 : 构造 待 分 解 的 
目标 短 阵 (本 文 指 文档 -词语 短 阵 ); XpPE FERAE PEE AT AE fd 45 
阵 分 解 ， 得 到 由 基 向 量 组 成 的 矩阵 W 和 权重 系数 矩阵 H; 从 
分 解 后 的 矩阵 中 提取 有 意义 的 语义 徐 。 
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@) 聚 类 评价 和 参数 民 的 选择 

聚 类 的 评价 方式 通常 有 外 部 和 内 部 评价 。 外 部 评价 是 针 
对 有 标注 类 别 的 数据 而 言 有 准确 率 、 召 回 率 和 F 值 等 指标 ; 
内 部 评价 则 针对 没有 标注 的 数据 ,通过 计算 繁 内 样本 到 竹中 
心 的 误差 平方 和 来 衡量 簇 内 的 凝聚 性 、 计 算 答 间 的 距离 总 和 
来 衡量 徐 间 的 分 离 性 ， 以 评估 聚 类 效果 的 优 劣 , 主要 指标 有 
Calinski-Harabasz Index( 简 称 cmP0 和 Average Silhouette Width 
(简称 asw) 1 其 中 , ch 是 通过 答 间 距离 平方 和 与 徐 内 误差 距离 
平方 和 的 比值 评价 聚 类 效果 ， 指 标 越 大 说 明 雍 间距 离 相对 较 
KARER D, 表明 聚 类 效果 较 好 , 反之 较 差 ; asw 指 标 则 
通过 计算 数据 点 与 其 所 在 的 徐 其 他 数据 点 、 其 他 徐 里 的 数据 
点 的 相 凡 程度 来 衡量 猴 内 凝聚 性 和 禾 间 分 离 性 ， 指标 范围 为 
[1,1], asw 值 越 接近 1 表明 效果 越 好 ,反之 越 差 。 由 于 实验 数 
据 缺 少 类 别 标签 ， 同 时 考虑 到 三 种 聚 类 方法 共有 的 评价 指标 ， 
因此 本 文 评 价 聚 类 效果 时 采用 内 部 指标 asw。 

对 于 KK-means 和 层次 聚 类 算法 中 聚 类 数目 K 的 选 
f£, 本 文采 取 对 不 同 的 K 值 分 别 进 行 聚 类 ,根据 聚 类 
评价 指标 ch 和 asw, 选取 聚 类 效果 较 好 的 K 值 作为 最 
终 的 聚 类 数目 。 

针对 NME, 需 指定 分 解 成 的 语义 复 个 数 K 和 德 阵 初 
始 化 算法 。 对 于 的 选择 , 采用 Brunet 等 提出 的 方法 中 
通过 不 同 K 值 对 文本 矩阵 进行 多 次 分 解 , 构造 一 致 矩 阵 
(Consensus Matri)， 利 用 可 视 化 重 编码 后 的 一 致 矩阵 和 
共 表 型 相关 系数 (Cophenetic Correlation) 曲 线 图 找到 合适 
的 K 值 。 对 于 和 矩阵 初始 化 算法 , 采用 随机 初始 化 的 方式 ， 
通过 多 次 迭代 运行 , 减少 分 解 的 不 稳定 性 。 

以 企业 A 的 数据 集 为 例 , 通过 上 述 方法 选取 合适 
的 参数 。 结 合 实际 的 营销 知识 , 通常 客户 细 分 成 的 聚 
类 数目 不 超过 10 个 , 因此 在 [2,10] 内 选择 K 值 ,由 于 ch 
和 asw 指标 的 取 值 范围 有 所 不 同 (分 别 对 应 [-1,1] 和 
[0,+0]), 为 了 便于 观察 曲线 对 应 的 指标 最 大 值 ， 对 ch 
和 asw 进行 规范 化 处 理 (数据 集中 的 各 项 数据 减 去 数 
据 集 的 均值 再 除 以 数据 集 的 标准 差 )。K-means 聚 类 算 
法 和 层次 聚 类 算法 对 应 的 玉 值 和 评价 指标 曲线 如 图 2 和 
图 3 所 示 。 可 以 看 出 , K-means 和 层次 聚 类 算法 倾向 于 将 
数据 划分 成 两 个 徐 。 

EIEREN K 值 的 选取 上 , 针对 每 个 K W, 
通过 50 次 非 负 和 矩阵 分 解 ， 累加 每 次 得 到 的 连接 矩阵 
(Connectivity Matrix) 计 算 一 臻 矩阵 ， 重 编码 后 绘制 矩 
阵 热 图 ， 如 图 4 所 示 ， 从 热 图 结构 观察 K 值 ; 并 通过 一 
致 矩阵 计算 共 表 型 相关 系数 以 绘制 曲线 图 , 共 表 型 系 
数 衡 量 NMF 分 解 后 簇 的 稳定 性 ， 系 数 越 大 表明 分 解 
得 到 的 一 致 矩阵 更 好 。 


Score 
[e] 


图 2 K-means 算法 中 开 值 选取 


从 图 4 可 看 出 K 取 2 和 3 时 , 数据 聚集 成 较 大 的 
深 色 方块 , 特别 地 当 K 取 3 时 ,数据 形成 3 个 深 色 的 
方块 , 表明 从 非 负 和 矩阵 分 解 的 角度 看 数据 分 为 3 个 语 
义 复 较为 合理 。 当 开 取 值 为 4-10 时 ,可 以 看 出 数据 开 
始 趋 向 于 聚集 成 多 于 3 个 的 不同 程度 的 深 色 方 块 , 但 
颜色 分 布 不 纯 , 说 明 数 据 中 仍 存在 交叉 重 释 的 语义 簇 ， 
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图 3 层次 聚 类 算法 中 K 值 选取 


仍 可 继续 细 分 ; 特别 当 K=8, 9, 10 时 , 对 角 线 上 基本 都 
有 8 个 较为 明显 的 方块 , 说 明 继续 增 大 K 值 的 矩阵 分 
解 倾向 于 形成 8 个 方块 ， 所 以 K=8 可 以 作为 另 一 个 选 
择 。 结 合共 表 型 相关 系数 曲线 图 5, 可 看 出 当 K=3 BT, 
系数 最 大 。 综 上 ， 可 以 确定 将 文档 -词语 矩阵 分 解 成 3 


或 8 个 语义 簇 。 


J 
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图 4 K Æ[2,10] A xdi mr 2-3 S S 89 — $c 4B EE 2A E] 
QE: 在 矩阵 热 图 中 , 颜色 值 从 0 变化 到 1。0 表示 浅 色 , 意味 着 数据 样本 不 在 同 个 簇 内 ; 1 表示 深 色 , ERARE A E FR] I IA 


可 以 通过 对 角 线 的 方块 颜色 和 结构 ,观察 K 大 致 合适 的 数目 。) 
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图 5 KK 在 [2,10] 内 取 值 时 对 应 的 共 表 型 
相关 系数 曲线 图 
同样 地 ,针对 企业 B.C 的 数据 集 按照 上 述 方法 选 
择 相 应 的 K fi, 结果 如 表 3 所 示 : 
表 3 不 同 企 业 微 博 数 据 对 应 的 K 值 
企业 编号 K-means/ 层 次 聚 类 选取 的 玉 值 NMF 选取 的 KK 值 


A K-2 K-3 K-8 
B K=2 K=3 K=5 
C K=2 K=2 K=6 


(3) 聚 类 结果 分 析 和 可 视 化 

通过 在 不 同行 业 的 企业 微 博 数据 集 上 对 比 不 同 聚 
类 算法 的 效果 , 利用 三 种 聚 类 算法 共同 的 评价 指标 
asw 进行 评估 ; 进而 选择 较 好 的 聚 类 算法 ， 对 不 同 数 
据 集 进 行 聚 类 , 通过 标签 云 的 形式 可 视 化 聚 类 结 
由 于 K-means 、 层 次 聚 类 和 NMF 在 K 值 选取 上 存在 
差异 ， 因 此 本 文 针 对 不 同 算法 选取 的 K 值 分 别 聚 类 并 
评价 。 

由 表 4 看 出 , 从 评价 指标 方面 , 基于 NMF 的 聚 类 
算法 远 远 优 于 K-means 和 层次 聚 类 算法 ， 以 平均 值 来 
估算 , 基于 NMF 的 聚 类 评价 指标 asw 为 86.130%， 远 
远 超 出 基于 K-means 和 层次 聚 类 的 方法 。 值 得 注意 的 
是 ， 当 K=2 或 3 时 , 基于 NMF 的 聚 类 方法 倾向 于 将 文 
本 数据 粗略 划分 为 2-3 PER, 但 从 实际 领域 知识 的 角 
度 看 ,这 些 划 分 仍 比较 粗糙 ,可 进一步 细 分 发 现 更 有 
意义 的 艇 , 因此 本 文 考 虑 NMF 在 K 值 选择 方面 的 另 
一 种 方案 如 K-8 或 5 或 6, 虽然 聚 类 评价 指标 可 能 
所 降低 , 但 有 利于 挖 气 更 有 价值 的 客户 群 信息 。 


表 4 不 同 聚 类 算法 在 不 同 数据 集 、 不 同 玉 值 时 的 asw 值 


A B C - 
平均 值 

K=2 K-3 K-8 K-2 K-3 K-5 K-2 K-6 
K-means 0.03865 0.03827 0.04956 0.19138 0.13253 0.13988 0.04759 0.05290 0.08635 
层次 聚 类 0.03402 0.03417 0.02457 0.19175 0.12785 0.12621 0.05018 0.03452 0.07791 
NMF 1.00000 0.70000 0.70000 1.00000 0.78000 0.92000 1.00000 0.79000 0.86130 


经 过 前 面 的 分 析 , 本 文 确 定 使 用 基于 NMF 的 聚 类 
算法 对 不 同行 业 的 文本 数据 进行 聚 类 。 以 企业 A 为 例 ， 
提取 不 同 K 值 对 应 的 细 分 结果 ,如 表 5 和 表 6 所 示 。 


表 5 K=3 时 对 应 的 非 负 和 矩阵 分 解 提取 出 来 的 簇 关键 词 


簇 标 签 簇 中 按 权 重 系数 排 序 的 前 15 个 关键 词 
学 生 、 睡 觉 、 上 网 、 电 子 商 务 、 交 友 、 唱 歌 、 
1 学 生 动漫 、 篮 球 、 创 业 、 汽 车 、 天 蝎 座 、 宅 女 、 看 


书 、 运 动 、 乐 观 


电子 商务 、 新 闻 、 自 由 行 、 自 驾 游 、 户 外 、 机 
2 商务 白领 票 、 度 假 、 财 经 、 自 助 游 、 传 媒 、 创 业 、 酒 店 
预订 、 出 境 游 、 旅 游 达 人 、 移 动 互 联网 
演员 、 美 容 、 潮 流 、 街 拍 、 微 时 尚 、 搭 配 、 女 
人 性、 购物、 爱情、 创意、 语录 、 淘 宝 、 文 艺 、 
化 妆 、 学 生 
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从 表 5 和 表 6 可 以 看 出 , 3S ERE ff B IPEA fiU: CER 
的 聚 类 ， 得 到 的 语义 复 还 是 比较 有 意义 的 。 从 表 5 可 看 
出 该 企业 微 博 客户 群 主 要 有 学 生 、 商 务 白领 和 时 尚 爱 
好 者 等 三 个 群体 , 但 这 些 簇 仍 可 以 继续 细 分 ， 比 如 第 
二 个 复 可 细 分 出 旅游 、 汽 车 等 客户 群 。 由 表 6 可 以 看 
到 细 分 出 来 的 客户 群 特征 较 表 5 更 加 具体 、 更 有 意义 ， 
对 应 了 学 生 、 时 尚 爱好 者 、 商 务 白领 、 旅 游 爱好 者 、 
演艺 人 士 、 年 轻 妈 妈 、 互 联网 从 业者 、 创 意 艺术 爱好 

类 似 地 ,对 企业 B, C 对 应 的 数据 集 进 行 聚 类 , 通 
过 标签 云 可 视 化 客户 群 关 键 词 ， 如 图 6 和 图 7 所 示 。 
可 以 看 出 企业 B 和 C 较为 明显 的 客户 群 特 征 , 分 别 对 
应 的 是 母 婴 育儿 和 出 国 留学 两 种 企业 客户 群 特征 。 
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图 6 企业 B 对 应 的 企业 客户 群 关键 词 标签 去 
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图 7 企业 C 对 应 的 企业 客户 群 关键 词 标签 云 
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43 分析 与 讨论 

从 实验 结果 来 看 , 基于 NMF 的 文本 聚 类 方法 的 
评价 指标 大 幅度 超出 了 传统 聚 类 方法 对 应 的 指标 ; 同 
时 从 实际 聚 类 效果 来 看 ,基于 NMF 的 方法 确实 能 够 
较 好 地 发 现 不 同 的 企业 客户 群 特征 。 可 以 推测 有 以 下 
两 方面 的 原因 : 

(1) 传统 文本 聚 类 方法 依据 “文本 中 词 与 词 之 间 
互相 独立 ”的 假设 , 缺乏 对 语义 的 考虑 ; 当面 临 高 维 稀 
玻 的 文本 数据 时 ,这些 算 法 难以 较 好 计算 数据 对 象 间 
的 相似 度 以 致 无 法 有 效 实现 聚 类 , 故 效果 较 差 。 

(2) 由 于 非 负 和 矩阵 分 解 具有 寻求 降 维 表示 和 提取 
潜在 语义 的 特性 ， 因 此 将 非 负 矩阵 分 解 应 用 到 文本 至 
类 中 , 能 挖掘 文档 集合 的 潜在 语义 ; 并 通过 分 解 后 的 
基 向 量 和 矩阵 和 权重 系数 矩阵 的 列 向 量 加 权 组 合 来 表示 
文档 , 直观 解释 文档 语义 ; TE NMF 的 基础 上 提取 不 同 
TRUE, 间接 实现 文本 聚 类 。 通 过 多 次 迭代 分 解 后 可 
以 得 到 精确 的 结果 ,所 以 基于 NMF 的 聚 类 效果 较 好 。 
Ah 从 图 6 和 图 7 也 可 看 出 , 细 分 的 结果 可 能 会 出 现 
极 少 数 相似 的 语义 簇 。 因 此 ,从 实际 操作 的 角度 , 可 考 
虑 将 客户 细 分 为 5-8 个 群体 , 再 根据 划分 粒度 的 粗细 
进行 适当 的 合并 以 得 到 更 为 合理 的 结果 。 


5 结 语 


在 社会 化 营销 盛行 的 背景 下 ,本 文 在 客户 特性 表 
示 的 基础 上 , 提出 一 种 面向 企业 微 博 的 客户 细 分 框 
架 。 借 助 微 博 客户 的 个 人 和 社会 特性 ,利用 微 博 客户 
及 其 微 博 好 友 的 标签 来 表示 该 客户 的 特性 ; 同时 利用 
文本 聚 类 技术 对 微 博客 户 的 标签 文本 进行 隧 类 ; 在 对 
聚 类 结果 进行 评价 后 并 通过 标签 云 的 可 视 化 呈现 客户 
细 分 结果 。 实 验 结果 表明 , 采用 基于 NMF 的 聚 类 算法 
明显 优 于 传统 的 K-means 和 层次 聚 类 算法 ,能 使 客户 
细 分 的 结果 更 有 意义 。 

然而 ,本 文 提出 的 框架 相对 简单 , 仍 有 以 下 方面 
需要 完善 : 本 文 只 通过 融合 微 博 客户 个 人 及 其 关注 好 
友 的 标签 来 表示 微 博 客户 的 特性 ,尚未 能 全 面 刻画 客 
户 特征 ,后 续 可 以 结合 微 博客 户 注册 的 背景 信息 或 微 
博文 本 , 探索 更 好 的 微 博 客户 特性 表示 方法 ; 鉴于 其 
他 聚 类 算法 的 复杂 性 ,本 文 仅 考 虑 传统 的 K-means 和 
层次 聚 类 及 基于 NMF 的 聚 类 方法 ,可 以 继续 探究 其 
他 算法 的 效果 ; 只 采用 内 部 评价 方式 评估 聚 类 ， 需 要 
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结合 领域 知识 以 全 面 评 佑 聚 类 效果 ; 如 何 将 提出 的 方 
法 和 框架 应 用 到 实际 微 博 营销 领域 , 也 是 未 来 的 研究 
方向 。 
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A Framework for Customer Segmentation on Enterprises" Microblog 


Chen Dongyi” Zhou Zicheng! Jiang Shengyi Wang Lianx Wu Jialin! 
(School of Informatics, Guangdong University of Foreign Studies, Guangzhou 510006, China) 
^(Guangdong University of Foreign Studies Library, Guangzhou 510420, China) 
XS.F.EXPRESS Co. Ltd., Shenzhen 518000, China) 


Abstract: [Objective] This study tried to describe the customers' characteristics effectively. [Methods] The proposed 
framework aimed to explore the personal and social relationship among the customers and their friends on the 
microblog platform. We described the customers' characteristics using self-defined tags and then created segmentation 
with the help of text clustering and non-negative matrix factorization technologies. [Results] The method based on 
non-negative matrix factorization achieved an approximately 86.13096 on average asw index, which outperformed 
traditional methods based on K-means and hierarchical clustering. [Limitations] The customers' characteristic cannot 
be described only by himself and his friends with self-defined tags on Microblogging. [Conclusions] The proposed 
framework could improve the effectiveness of characteristics description, evaluation and visualization of microblog 
customer segmentation. 


Keywords: Customer segmentation Microblogging marketing Text clustering | Non-negative matrix factorization 
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